达观智能推荐融合知识图谱,持续提升推荐效果和体验
DATAGRAND
在实际推荐过程中,用户和物品的交互信息往往是非常稀疏(sparse)的。以淘宝为例,平均每天的在线商品数超过8亿件,而一个用户曾经浏览过、点击过、购买过或有过其他行为的商品可能平均只有几百件,用这几百件已知数据去预测8亿商品里用户可能感兴趣的商品,往往因为样本数量过少造成准确率不高。
同样的情况在推荐物料较多的情况下显得尤为突出,国外大型电商平台亚马逊也遇到相似的问题,即用户评价过的物品数量相对网站中总物品数量可谓是冰山一角,这就导致了用户项目评分矩阵的数据极端稀疏,在计算用户或物品的最近邻时准确率就会比较低,从而使得推荐系统的推荐质量急剧下降。
达观方案:场景化解决数据稀疏问题
DATAGRAND
针对场景建立知识图谱是电商领域常见的图谱应用方式,因为知识图谱(knowledge graph)可以很好的组合和利用辅助信息,辅助信息可以丰富对用户和物品的描述、增强推荐算法的挖掘能力,从而有效地弥补交互信息的稀疏或缺失。
图 1 达观智能推荐系统引入知识图谱
上图展示的三元组表达了“张艺谋导演了活着”这样一条事实,其中h=张艺谋、t=活着、r=导演。
在实际推荐过程中,我们可以通过人工、规则或者模型的方式,为商品关联相应的消费场景。比如“沙滩裤”、“沙滩鞋”、“泳衣”、“防晒霜”同属于“沙滩”的使用场景,当用户搜索或点击到该场景下的几个关键词,如“沙滩裤”、“沙滩鞋”后,达观智能推荐系统推测该用户的使用场景可能是去沙滩度假,在该场景下会为他相应地推荐“泳衣”、“防晒霜”等沙滩度假常用物品,这样即使用户-物品间有较少的交互数据,也可以根据已有数据进行深层探索。
图 3 达观智能推荐引入知识图谱:场景化解决数据稀疏问题
问题2:冷启动问题
DATAGRAND
推荐系统冷启动主要分为物品冷启动、用户冷启动、系统冷启动三大类。推荐系统的主要目标是将大量的物品推荐给可能喜欢的海量用户, 这里涉及到物品和用户两类对象。
在任何一个平台上物品和用户都是不断增长变化的,所以一定会频繁面对新物品和新用户, 推荐系统冷启动问题指的就是对于新注册的用户或者新上架的物品, 该怎么给新用户推荐物品让用户满意,怎么将新物品分发出去,推荐给喜欢它的用户。
另外,如果是全新场景,初期用户很少,用户行为也不多,常用的协同过滤、深度学习等依赖大量用户行为的算法不能很好的训练出精准的推荐模型, 怎么让推荐系统很好的运转起来,让推荐变得越来越准确,这个问题就是系统冷启动问题。
达观方案:知识化解决冷启动问题
DATAGRAND
图 4 达观智能推荐引入知识图谱:背景化解决冷启动问题
DATAGRAND
在现实生活中,我们经常会为朋友做推荐或者让别人帮我们推荐,比如推荐旅游地、推荐电影、推荐书籍、推荐餐厅等。现实生活中的推荐,大家都会给出推荐原因,比如推荐餐厅,我们会说这家环境好、好吃、卫生等等,那如果网上冲浪时推荐的商品、资讯或内容都能给出推荐理由的话,将会大大增加用户对平台的信任度和依赖度。
DATAGRAND
图 5 达观智能推荐引入知识图谱:关联化解决可解释性不强问题
图 6 达观智能推荐系统支持展示推荐理由
DATAGRAND
推荐阅读